Php cURL 网页抓取

ruby - 我需要从 facebook 游戏中抓取数据——使用 ruby

修改(澄清问题)我已经花了几天时间试图弄清楚如何从Facebook游戏中抓取特定信息；但是，我遇到了一堵又一堵砖墙。据我所知，主要问题如下。我可以使用Chrome的检查元素工具手动查找我需要的html-它似乎位于iframe中。但是，当我尝试抓取该iframe时，它是空的(属性除外):如果我使用浏览器的“查看页面源代码”工具，这与我看到的输出相同。我不明白为什么我看不到iframe中的数据。答案不是它是由AJAX之后添加的。(我知道这既是因为“查看页面源代码”可以读取Ajax添加的数据，也是因为我有b/c我一直等到我可以看到数据页面之后才抓取它，但它仍然不存在)。发生这种情况是因为

mdash ruby 34 section iframe facebook screen-scraping nokogiri

RUBY - 网页抓取 - (OpenURI::HTTPError)

我正在尝试用ruby编写一个简单的网络抓取代码。它一直工作到第29个url，然后我收到此错误消息:C:/Ruby193/lib/ruby/1.9.1/open-uri.rb:346:in`open_http':500InternalServerError(OpenURI::HTTPError)fromC:/Ruby193/lib/ruby/1.9.1/open-uri.rb:775:in`buffer_open'fromC:/Ruby193/lib/ruby/1.9.1/open-uri.rb:203:in`blockinopen_loop'fromC:/Ruby193/lib/r

HTTPError OpenURI open 39 open-uri ruby web web-scraping

ruby-on-rails - 如何使用 JSON 的 Nokogiri 中的 XPath 从 eBay 和亚马逊抓取图像

我正在尝试使用Nokogiri和XPath从网站上抓取图像，但到目前为止收效甚微。对于其HTML具有img和src的典型网站，我可以使用:tmp2=Nokogiri::HTML(open(site_url))tmp2.xpath("//img/@src").eachdo|src|...dowhateverend但是，某些网站(如Amazon和eBay)仅使用JavaScript触发特定图像。如果我查看代码，我可以看到数组中的数据。例如，来自Amazon:P.when('jQuery','cf').execute(function($,cf){P.load.js('http://z-ec

ruby-on-rails Nokogiri 34 images images-amazon ruby xpath web-scraping

ruby - Heroku 和网络抓取

我有一个nokigiri网络抓取工具，它发布到我试图发布到heroku的数据库。我有一个sinatra应用程序前端，我想从数据库中获取它。我是Heroku和Web开发的新手，不知道处理此类问题的最佳方法。我是否必须将上传到数据库的网络爬虫脚本放在sinatra路由下(如mywebsite.com/scraper)，并让它变得如此模糊以至于没有人访问它？最后，我想让sinatra部分成为一个从数据库中提取的restapi。感谢大家的参与最佳答案您可以采用两种方法。第一个是通过控制台使用herokurunYOURCMD运行scrap

Heroku ruby section https web-services api sinatra

ruby-on-rails - 在 Model 类方法中指定当前抓取的记录

我有一个类方法，我想在其中修改当前由ActiveRecord::Relation对象抓取的记录。但是我不知道如何在类方法中引用当前范围。self不会这样做。例子:classUser我会这样使用它:User.some_scope.modify_those_records所以User.some_scope会返回给我一个ActiveRecord::Relation，其中包含一堆User记录。然后我想在该类方法中修改这些记录，然后返回它们。问题是:我不知道如何在类方法中明确引用“那组记录”。最佳答案您可以使用current_scope:

定当中指 code section ActiveRecord ruby-on-rails ruby activerecord-relation

ruby - open-uri 从以 iso-8859 编码的网页返回 ASCII-8BIT

我正在使用open-uri读取一个声称以iso-8859-1编码的网页。当我读取页面内容时，open-uri返回一个以ASCII-8BIT编码的字符串。open("http://www.nigella.com/recipes/view/DEVILS-FOOD-CAKE-5310"){|f|pf.content_type,f.charset,f.read.encoding}=>["text/html","iso-8859-1",#]我猜这是因为网页中的字节(或字符)\x92不是有效的iso-8859字符。http://en.wikipedia.org/wiki/ISO/IEC_8859-

open-uri ASCII code encoding section ruby internationalization

网页设计期末作业，基于HTML+CSS+JavaScript超酷超炫的汽车类企业网站(6页)

🎉精彩专栏推荐💭文末获取联系✍️作者简介:一个热爱把逻辑思维转变为代码的技术博主💂作者主页:【主页——🚀获取更多优质源码】🎓web前端期末大作业：【📚毕设项目精品实战案例(1000套)】🧡程序员有趣的告白方式：【💌HTML七夕情人节表白网页制作(110套)】🌎超炫酷的Echarts大屏可视化源码：【🔰Echarts大屏展示大数据平台可视化(150套)】🔖HTML+CSS+JS实例代码：【🗂️5000套HTML+CSS+JS实例代码(炫酷代码)继续更新中…】🎁免费且实用的WEB前端学习指南：【📂web前端零基础到高级学习视频教程120G干货分享】🥇关于作者:💬历任研发工程师，技术组长，教学总监；

汽车类超酷 span class token html javascript css

ruby - 如何使用 ruby 和 unix 服务器截取网页的屏幕截图？

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭7年前。Improvethisquestion我正在尝试以编程方式创建大量网页的缩略图，这些网页托管在我自己的基于ruby/rails的网站上。我希望能够编写一个独立的ruby代码，看起来像这样:require'awesome-screenshot-maker'items.eachdo|id|url="http://foo.com/bar/#{id}"shooter=AwesomeScreenshotMa

ruby unix section noreferrer noopener gtk screenshot rmagick

ruby - 如何使用 Nokogiri 解析和抓取 URL 的元标记？

我正在使用Nokogiri来拉取和标签，但我无法获得这些:我有这个代码:url='https://en.wikipedia.org/wiki/Emma_Watson'page=Nokogiri::HTML(open(url))putspage.css('title')[0].textputspage.css('h1')[0].textputspage.css('description')putsMETADESCRIPTIONputsMETAKEYWORDS我查看了文档，但没有找到任何内容。我会使用正则表达式来执行此操作吗？谢谢。最佳答案

Nokogiri ruby 34 code section html-parsing

ruby - 如何打开网页并将其写入 ruby 文件？

如果我使用OpenURI运行一个简单的脚本，我可以访问网页。结果写入终端。通常我会使用bash重定向将结果写入文件。如何使用ruby将OpenURI调用的结果写入文件？最佳答案 require'open-uri'open("file_to_write.html","wb")do|file|URI.open("http://www.example.com/")do|uri|file.write(uri.read)endend注意:在Rubyopen(url)而不是URI.open(url)。参见https://bugs.ruby

并将 ruby section code

12 3 4